#pip install nltk  -i https://pypi.tuna.tsinghua.edu.cn/simple
import nltk
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize

# 下载 nltk 的分词器数据
# nltk.download('punkt_tab')


# 示例文本
text = "This is a test sentence."

# 使用 nltk 进行分词
tokens = word_tokenize(text)
print("分词结果:", tokens)

# 假设我们有一个文本列表用于训练 Word2Vec 模型
sentences = [["this", "is", "a", "test", "sentence"]]

# 训练 Word2Vec 模型
model = Word2Vec(sentences, min_count=1)

# 获取每个单词的向量表示
for token in tokens:
    if token in model.wv:
        vector = model.wv[token]
        print(f"单词 '{token}' 的向量表示:", vector)
    else:
        print(f"单词 '{token}' 不在词汇表中。")